Top
首页> 快讯 > 正文

Extreme Chain Technology两次赢得Google AI地标识别竞赛,并且识别和检索技术先进

发布时间:2019-06-11 12:17:36        来源:互联网
经过两个月的激烈竞争,最近宣布了由Google主办的2019年Google Landmark Recognition Challenge的结果。 Extreme Chain Technology AI团队的参与者以高分获得了第一名。这是Google地标中的终极连锁技术。在比赛中第二次,这也是中国AI团队在国际比赛中的又一个里程碑式的胜利。

图片1.png

去年,Google发布了Google-Landmarks,这是世界上最大的地标数据集。为了促进实例级识别和图像检索的研究,谷歌还举办了两场比赛,地标识别2018和地标检索2018.超过500名研究人员和机器学习研究人员参加了比赛。作为这一挑战的赢家,Extreme Chain Technology将再次受邀在美国举行的CVPR 2019年会议上举办技术研讨会。该会议是计算机视觉领域的世界顶级会议,在会议界和学术界广为人知。

图片2.png

今年,谷歌发布了一个新的,更大的地标数据集google-landmarks-v2。这是一个全新的,甚至更大的地标识别数据集,包含414万张图像,是去年的三倍多,以及具有里程碑意义的200,000个不同地标。这些地标包括德国新天鹅堡,金门大桥,清水寺,吉萨大狮身人面像和马丘比丘。谷歌表示,由于全世界摄影师社区的努力,如此大量的图像,完成注释的能力,促进了数据集的生成。

图片3.png

Google AI软件工程师Bingyi Cao和Tobias Weyand表示,实例识别和图像检索方法都需要更大的数据集,包括图像数量和各种标志,以便培养更好,更强大的系统。我们希望这个数据集能够帮助推进实例识别和图像检索方面的最新技术。

由于规模的差异,该数据集更加多样化,并且对最先进的实例识别方法提出了更大的挑战。基于这一新数据集,Google借此机会推出了2019年Google地标识别挑战赛,呼吁全球计算机视觉科学愿景朝着更复杂的计算机视觉模型的标志性检测迈出一大步。

2019年谷歌地标识别挑战谷歌仍然在Kaggle平台上注册并提交,该平台在全球拥有数百万数据科学家用户,是世界上最权威的数据科学竞赛平台。进入机制要求参赛者在给定的查询图像之后识别包含数据库中的查询界标的所有图像。对于数百万级别的数据量和图像内容而言,很难想象有太多不相关的信息。

另外,因为检测对象是界标,所以在其识别和其他对象的类似操作之间存在显着差异。例如,即使在大型注释数据集中,那些不太受欢迎的地标通常也没有训练数据;另外,地标通常是不可移动的刚性物体,在这种情况下,诸如遮挡,角度,天气,光线等的图像捕获条件都对识别结果产生影响。

尽管如此,Landmark Recognition Challenge还是吸引了来自世界各地的281支队伍。比赛持续了2个月,参与者是在世界各地拥有丰富计算机视觉经验的高素质个人和团队。 Extreme Chain Technology的AI团队排名第一,总分为0.37606,超过了许多着名的AI团队;第二和第三的得分分别为0.35988和0.35541。

作为Google Landmark Recognition Challenge的冠军,Extreme Chain Technology的AI团队也分享了他们的获奖计划:

这场比赛与去年有同样的困难。

1.类别数量极不均匀:平均每类20.35个样本,但在不到20个类别中有150,000个类别,几乎是总数的3/3,近19000个样本的数量仅为1;

2.由于没有手动清洁,训练集中同一类别中有许多没有共同点的图片,或者同一地标的图片出现在不同的类别中;

3.测试装置中有很多干扰图。

本次比赛使用的方法如下(更多详细说明将根据组织者的要求上传至arXiv作为论文):

由于今年的类别总数超过20万,我们直接放弃对CNN分类网络的培训,选择检索方法作为中心思想,由以下两个模型和三个步骤组成。

模型1:全局检索模型。全新的基于特征的搜索模型在清洁的训练集上训练(总共830,000张,110,000个类别),Backbone选择ResNet-101,ResNeXt-101,SE-ResNet-101,SE-ResNeXt-101,SENet-154五基本模型,汇集选择GeM,RMAC,MAC,SPoC,并且每个全局池连接到完全连接层的1024维输出,最后的特征是通过上面的四个汇集输出(每个2048维)它是由四个完全连接的输出(每个1024个尺寸),总共12288个尺寸。损失功能选择Contrastive + Triplet同时训练。训练后,它使用衰减无监督白化将尺寸减小到2048.最终模型由上述五个模型(对应于五个基本网络)和开源DIR模型加权拼接组成。

模型2:本地检索模型。该模型使用谷歌最近开源的检测到检索(D2R)模型。 (https://github.com/tensorflow/models/tree/master/research/delf)

步骤1:将所有118,000个测试集图片与413万个训练集图片与模型1进行比较。每个测试图片保留其最接近的五个训练图片的相似度,并选择最高总类别作为最终预测。此步骤在私人/公共列表中的分数为0.25138/0.21534。

步骤2:与步骤1相同,但这次保留前20名训练图片,并且第二次比较与模型2进行。最终预测是使用次要总分最高的类别(D2R)。此步骤在私人/公共列表中的得分为0.31870/0.26782。

步骤3:此步骤是整个过程中最关键的步骤。由于GAP机制对游戏进行评分,如果干扰图片在排名列表中排名过高,则会直接影响最终得分。为此,我们采用以下重新排名策略。从步骤2中的等级1测试图片开始,将所有排名较低(高达20000等级)的图片与模型2进行比较。如果得分高于某个阈值(我们将其设置为23),则提高图片。排行。对所有前500个测试图像执行此操作后,重新排序的列表将重新排序两次。在此过程结束时,私人/公共列表得分为0.36787/0.31626。最后,在步骤1的预测中使用此策略(此时选择top-300,因为步骤1的得分相对较低),并将交叉的两个新重新排序列表的顶部图像排序,最终总冠军得分为0.37606/0.32101。

此外,我们还尝试用模型1提取的特征训练MLP,并执行上述步骤3的操作。这个结果最终将私人名单上的得分提高到0.37936,但不幸的是因为它在公开名单上得分为0.32100,我们没有选择此提交作为最终提交。

最后,Extreme Chain Technology的AI团队还表示,他们在此挑战中使用的算法将用于Extreme Chain Technology的产品。

Polar Chain Technology再次参与了Google Landmark Challenge,这是Polar Chain Technology技术用于识别技术的结果。这也是Extreme Chain Technology多年来深入培养AI的技术信心。 Extreme Chain Technology在场景识别和视频识别领域取得了骄人的成绩,并成功地成为AI +视频领域的国内首席企业。这次是Google Landmark Challenge中的第二次,它还展示了Extreme Chain Technology在计算机视觉领域的领先地位。据悉,5月31日,由极限连锁技术和复旦大学联合主办的VideoNet视频内容识别挑战赛正式接受了注册。未来,Polar Chain Technology将继续推动人工智能研发,共同探索前沿领域的技术突破和应用。创新,作为新一代视频AI的领导者。